Correciones Fernando Schapachnik:

Capítulo 1 - Introducción :

Pág. 1:
TODO: Asumo que dice 'Grupo social' de costado. Igual no entiendo qué arreglar.
TODO: "El objetivo de esta tesis es realizar un sistema que pueda facilitar (soluciones) a estos problemas" => asumo que es eso
Lo demás OK. 

Pág. 2:
TODO: El experimento que tomamos como caso de estudio es (medir) las diferencias en el habla entre Córdoba y Buenos Aires. => asumo que es eso

Pág. 3:
TODO: "...en la aspiración de la /s/." => asumo que dice "Dónde" así que expliqué que se refiere al terminar una palabra.
Lo demás OK.

Capítulo 2: Diseño del experimento :

Pág. 5: 
cuáles ? OK cambiado 
"El acento se potencia cuando se realiza habla espontánea" nose que quiso marcar ahí.
"para hablantes de Córdoba esta duración es más corta (larga) que para hablantes de Buenos Aires" => OK
"Este esquema se llama AMPER \cite{amper} y lo veremos en detalle más adelante (referencia)." => cambiado por "... lo veremos más en detalle en la sección 2.1.1"
"Utiliza (?) este esquema para cubrir todo tipo de acentuación." => "Utilizamos..."


Pág. 6:
TODO: "Este trabajo estudió los acentos del español argentino utilizando todas sus combinaciones." => Releer bien el trabajo de amper pero lo puedo cambiar por "Este trabajo estudió los acentos del español argentino utilizando un esquema de frase fija y intercambiando palabras para analizar todos sus casos" 

"Para el esquema AMPER se fija un patrón de estructura de frases y se va cambiando las palabras que utiliza (marcado acá). " => cambiado por "Para el esquema AMPER se fija una estructura para la frase y se va cambiando las palabras que utiliza. " 

"En este ejemplo podemos analizar la sílaba anterior a la acentuada de estos dos grupos.(grupos BsAs Cba)" => "En este ejemplo podemos analizar la sílaba anterior a la acentuada de los dos grupos estudiados, Córdoba y Buenos Aires." 

Pág. 7:
TODO: arreglar falta de ortografía en frases y también en apéndice

Pág. 8:
"De esta forma cada frase tiene el mayor cubrimiento posible.(?)" => sacamos esa frase, me parece q no aporta nada

TODO: "no es lo mismo empezar por una frase que sólo cubre una sola regla que (aunque) varias." => no entiendo esta corrección.

TODO: " en un sólo audio podremos obtener más cubrimiento de reglas.(entonces)" => no entiendo esto
Agregué "Diremos que una frase cubre una determinada regla si esta la satisface."

TODO: "Si una frase cubre varias reglas estaríamos obteniendo más información y solo con una grabación.(no entiendo)" => "Si una frase cubre varias reglas estaríamos obteniendo más información sólo utilizando una grabación." chequear si se entiende mejor así

TODO: *** Parece que no se entiende nada el algoritmo de orden de frases. Lo que había es:
"La idea del algoritmo es la siguiente: vamos a utilizar un contador que nos va a decir cuántas muestras tenemos por cada regla. En cada paso vamos a ver ese contador y vamos a elegir la próxima frase teniéndolo en cuenta. Esta elección la lleva a cabo la función \textit{ObtenerLaMasPonderada}. Esta se encarga de elegir la frase que haga referencia a la regla menos grabada y además que represente a más de una regla. De esa forma intentamos obtener la mayor cantidad de información posible con pocas grabaciones y ponderamos las frases que referencien a más reglas."
Lo cambiamos por:
"
La idea del algoritmo es la siguiente: vamos a contabilizar la cantidad de muestras por cada regla. Esto se realiza calculando, para cada regla, la cantidad de frases que ya utilizamos cubriendo esa regla; sobre la cantidad total de frases que cubren esa regla. Entonces tendremos para cada regla su porcentaje de cubrimiento. Esto lo guardaremos en \textit{DicPct}.

Mientras haya frases sin ser seleccionadas para grabar, elegimos la regla que menos está cubierta. O sea, elegiremos como próxima regla a cubrir la que tenga menor porcentaje de cubrimiento. Esto se realiza en la función \textit{ObtenerReglaConMenorPorcentaje} utilizando como parámetro \textit{DicPct}.

Tenemos definida la próxima regla a cubrir. Debemos elegir la frase que cubra esa regla. Recordemos que hay muchas frases que cubren una determinada regla. Para definir cuál frase elegir vamos a optar por la que cubra mayor cantidad de reglas. Si hay varias frases en esta situación, elegimos una de estas al azar. Entonces no sólo aumentamos la cantidad de frases de la regla menos cubierta, sino que con esa frase cubrimos otras reglas. Esto se realiza en la función \textit{ObtenerLaMásPonderada}.

Para terminar, agregamos la frase elegida y recalculamos los porcentajes de cada regla en las lineas 9 y 10.
"

(¿Mejor hacer un ejemplo en latex y agregarlo? esta en tareasParaCadaExperimento.xlsx) 

Pág. 10:
TODO: Creo que puso "Control del sesgo emotivo de la frase => repetición de (no se que). Ej: Salto Violeta!"
No entiendo

"Defninimos ambos (?) tipos de frases a grabar" cambiado a => "Definimos frases comunes y amper para grabar"

"entre 1 ó 3 frases comunes" => "entre 1 a 3 frases comunes"

"evitar que sepa de antemano qué frase va a tener que grabar." Signo raro, asumo que no se entiende => 
"evitar que sepa de antemano qué frase va a tener que grabar ya que si fuera el caso, podría exagerar la entonación. "

TODO: "llegar al total de frases a grabar" => no se entiende porque marca esa parte.

Capítulo 3: 

TODO: *** reescribir más formal. Preguntar tiempos verbales. ***

Capítulo 4:

Pág. 18: errores menores corregidos.

Pág. 19: 

TODO: "esta herramienta es que no necesita (marcó algo pero no entiendo)"

TODO: "HTK es una librería (marcó acá nose porque) para crear"

TODO: "Los Modelos Ocultos de Markov \cite{rabiner} (en ingles HMM)" (No se entiende la corrección)

TODO: *** Pensar un ejemplo para HMM
"Entonces, a través de muestras va prediciendo los fonemas de las grabaciones.(Ejemplo)"

TODO: repito mucho la palabra librería. Saqué una para no repetirla.


Pág. 20:

TODO: *** MFCC (Qué es?) ***

Pág. 21:

TODO: half distribution (Porque?) Leer mail question on normalization of durational features
You're measuring how far from zero the duration is in units of standard deviations.

Pág. 22:
"y la regla 1??" => vamos a agregar justo antes del título "Atributos fonéticos" una explicación un poco mas detallada. "Para la regla 1 vamos a definir atributos silábicos, ya que corresponde a reglas que están definidas para sílabas, mientras que para las demás reglas (2 al 6) vamos a definir atributos fonéticos"

cambiar "tiempo" por "instante" => OK

+Pág. 23: *** Atributos acústicos: explicar bien MFCC ***

+Capítulo 5: 

+Pág. 26: "El principal problema fue que el ambiente utilizado por cada hablante no estaba completamente en silencio como para hacer una buena grabación (marcó algo q no se entiende)." => "El principal problema fue que el ambiente utilizado por cada hablante no estaba completamente en silencio como para hacer buenas grabaciones"

Capítulo 6:

Pág. 30: "Este algoritmo clasifica eligiendo siempre la categoría que en el conjunto es mayoritaria.(explicar más)" => "... Por ejemplo, si nuestro conjunto de datos de train tiene más muestras de Córdoba para la clasificación de nuevas instancias vamos a elegir siempre Córdoba"

"Si nuestro conjunto de datos estuviera debidamente balanceado este porcentaje sería exactamente del 50\%. (No, una cosa es efectividad, otra es distinto)"

Pág. 31:
TODO: "La herramienta Weka provee un clasificador basado en majority class llamado \textbf{ZeroR}. Utilizaremos este para el cálculo del baseline.(Anter.)"

Modelo de testing: párrafo 1 y 2 dice "Contradictorio". Cambiamos párrafo 1 por:
"Para medir el rendimiento de clasificadores se define un modelo de testing. Este separa una parte de los datos para entrenar el clasificador y otro para testearlo. La complejidad de nuestro problema ..."

Cambios menores ok.

"el resultado se garantiza (?) independiente de la partición de los datos de entrenamiento y prueba." => cambiado por "el resultado es independiente de la partición de los datos de entrenamiento y prueba."

"Para mitigar este problema, hicimos que el conjunto de train tenga el 70\% de las instancias mientras que el restante 30\% sea destinado para test. (Porque esto mitiga el riesgo?)" => cambiado por 
"Tomando en cuenta esto, la cantidad de audios de un conjunto puede quedar muy desbalanceada con respecto al otro. Por ejemplo, puede pasar que la cantidad de audios en test sea mayor a la de train. Este caso lo queremos descartar ya que estaríamos intentando clasificar sin haber entrenado lo suficiente. Para mitigar este problema, hicimos que el conjunto de train tenga el 70\% de las instancias mientras que el restante 30\% sea destinado para test. Estos dos grupos conformaron un par que lo llamaremos \textit{fold}." 
TODO: preguntar si esta bien decir "sin haber entrenado lo suficiente", puede pasar que entrenes en train con menos audios pero que te den mucha información y te alcance para hacer una buena clasificación... pero por lo general no debería pasar.

Pág. 33: 
TODO: No se entiende la corrección "Incluido en posterior"
lo demás OK

Pág. 34:
Cambios menores OK
"Este hiperplano se construye utilizando transformaciones lineales de los datos de entrada y sirve para clasificar las muestras en los dos grupos de la mejor forma posible.(subrayado mejor forma posible como que no se entiende)" => cambiado por 
"Este hiperplano se construye utilizando transformaciones lineales de los datos de entrada y sirve para clasificar las muestras en dos grupos."

Pág. 35:
TODO: Test de Wilcoxon (cuales son estos pares?) ***

Pág. 36:
TODO: Cambiado de lado el último párrafo 

cambios de palabras OK

Pág. 38: 
TODO: Porque no en 3 grupos? Cba, BsAs, ? ... no se porque pregunta esto

Pág. 39: 
TODO: BA es default ... no se porque lo dice

Pág. 41: cambie palabras OK
TODO: Clasificadores encontrados párrafo 1 (?) ... nose porque esto

Pág. 42: 
TODO: Ranker (?)... buscar bien como es.
No entiendo estas correcciones. Parecen menores

Pág. 45:
cambiado de palabras OK

Pág. 46:
cambiado de palabras OK

FIN

Correcciones Luciana Ferrer: 

Capítulo 1:

Pág. 1:
Errores menores OK

Pág. 2:
reformular frase => cambiada por "El experimento que tomamos como caso de estudio es medir las diferencias en el habla entre Córdoba y Buenos Aires."

Pág. 3:
"En la descripción de estos capítulos las diferencias hacen hincapié en los sonidos más suaves y cortos de la /r/ y la /i/ y en la aspiración de la /s/ al terminar una palabra." pregunta en qué casos la /r/ y la /i/ son suaves => cambiado por:
"En la descripción de estos capítulos las diferencias hacen hincapié en los sonidos más suaves y cortos de la /r/, el cambio de sonidos de /y/ y /ll/ a  /j/ y en la aspiración de la /s/ al terminar una palabra."

TODO: "no se estira la sílaba de la palabra anterior?" ni idea 

"Ejemplo: `Mosca' en la variante de Córdoba posee una sílaba más suave en el fonema /s/ que en Buenos Aires. " => cambia por
"Ejemplo: `Mosca' en la variante de Córdoba posee el fonema /s/ más suave que en Buenos Aires. "

Pág. 5:

Errores simples: OK
TODO: AMPER el esquema fue inventado por Gublekian? Ni idea

Pág. 6: 

correciones OK

Pág. 10:
"Teniendo en cuenta este algoritmo podemos notar que aproximadamente a partir de 10 grabaciones ya tenemos un buen porcentaje de cubrimiento de alrededor del 40\% en todas las reglas." (40 \% de qué?) +> cambiado por
"Teniendo en cuenta este algoritmo podemos notar que aproximadamente a partir de 10 grabaciones ya tenemos un buen porcentaje de cubrimiento. Por ejemplo, en la décima grabación la regla 4 ya tiene el 75\% de sus frases ya grabadas. La regla 5 el 50\% de sus frases ya grabadas. O sea, en la grabación número 10 ya se grabó alrededor del 40\% de la cantidad total de frases para cada regla." TODO: nose si así se entiende bien.

Capítulo 3: TODO *** REESCRIBIR TODO

Capítulo 4:

Pág. 19: 

TODO: *** pensar una buena explicación con gráficos de HMM 
Marcado en el .tex también

Demás correciones ok

Pág. 20: 
"El archivo Arff tiene por cada línea una grabación y seguido todos los resultados del cálculo de los atributos separado por comas." (una grabación o un pedazo correspondiente a alguna regla? )
El arff por cada linea representa una grabación porque por cada atributo va a realizar el promedio y el half normal distribution de ese mismo. Entonces si aparecen varias veces el atributo /s/ final de palabra no importa porque en su linea va a estar 1 sola vez.

En el Gráfico: porqué las doble flechas? porque en inglés?
Agregamos cuando nombra el diagrama lo siguiente:
"El workflow del extractor se puede ver en la Figura \ref{workflow}. En él podemos observar cómo trabaja internamente. Tenemos un componente principal llamado ``Extractor'' que se encarga de tomar los archivos de input; estos son las grabaciones wavs y las etiquetas de lo dicho en cada grabación, y de llamar a distintos componentes que van a calcular cada atributo. Para calcular estos atributos vamos a dividir en dos componentes: ``Acoustic Extractor'' que se encarga de extraer atributos acústicos y ``TextGrid Extractor'' que se encarga de extraer atributos temporales. Veremos cada uno en detalle más adelante. Luego de realizado este trabajo, se arma el archivo  " MEdio al pedo ya estaba explicado!
=> Agregamos los nombres al párrafo de la explicación OK

TODO: "Los atributos temporales corresponden a atributos sobre la duración de los fonemas y las sílabas de cada frase." (de toda la frase???) No se como explicarlo mejor

Pág. 21:
"asumendo que mu = 0" : Creo que cuando arregle lo de fer s. ya se va a entender.

TODO: "cada fonema en particular o juntando todos?" => juntando todos pero nose como ponerselo acá

Pág. 22:
TODO: "estos dos no están incluidos en el punto anterior?" => Sí... nose cómo aclarárselo.

TODO: ("Un resumen así debería ir al pincipio") ... nose que hacer , es discutible.

demás cambios OK

Pág. 23:

("no es un script sino una tabla") => es para que lo utilice el programa

"Si la variación es menor que esta duración la descartamos." => cambiar descartar por ignoramos
Si la variación es menor que esta duración la ignoramos.


Pág. 24:
TODO: Atributos acústicos cambiar la explicación ***

Capítulo 5:
Pág. 26: TODO ("agregar cuántos hablantes hubo para cada caso")

Capítulo 6:

Pág. 30: definir efectividad OK

Pág. 31: ("no entiendo qué significa esto") => agrego algo para que se entienda mas
"... ya que tengo más muestras para identificar a un hablante."

TODO: "un hablante pudo haber... " (pone los max y min)

TODO: Hacer cross-validation de a 1 hablante (ver mail Agustín) *** 

Pág. 35:
TODO: surgen (sé más concreto...) sino ponemos "son"

TODO: "maximizar la independencia" (sí pero no son independientes) ***

Pág. 36:
TODO: superposición entre los tests. Esta parte esta bastante mal :(

Pág. 38: 
TODO: problema GRAVE DE LA INDEPENDENCIA ***
TODO: Cambiar de nombre a los algoritmos y poner lo de los modelos.
TODO: (Faltan detalles de cómo se usan los atributos en cada modulo) => no se a que se refiere
TODO: (Qué haces con los atributos que no tienen un valor?) ***

Pág. 40:
TODO (Problemas con el desbalance) ni idea

Pág. 42:
Comprobar que pasa con atributos que estan con '?'

Pág. 43: TODO ni idea

Pág. 46 y 47: TODO 

